{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "id": "8c7be66a",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "from string import whitespace, punctuation\n",
    "\n",
    "import numpy as np\n",
    "import pandas\n",
    "from sklearn.feature_extraction.text import TfidfVectorizer\n",
    "from sklearn.linear_model import LogisticRegression\n",
    "from sklearn.model_selection import train_test_split\n",
    "from zhon.hanzi import punctuation as zh_punctuation\n",
    "import re\n",
    "import jieba"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "id": "c9869e55",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "df3 = pandas.read_excel(\"原始标注2.xlsx\", 0, index_col=0)\n",
    "df=df3.rename(columns={'Unnamed: 2':'未标记'})"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "id": "2fbe305a",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "(14194, 21)"
      ]
     },
     "execution_count": 3,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.shape"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "id": "cbca46bc",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>words</th>\n",
       "      <th>未标记</th>\n",
       "      <th>全屋wifi加装</th>\n",
       "      <th>全屋wifi月租包</th>\n",
       "      <th>套餐互转</th>\n",
       "      <th>智家产品</th>\n",
       "      <th>天翼看家新装</th>\n",
       "      <th>单宽带</th>\n",
       "      <th>套餐注销</th>\n",
       "      <th>叠加包订购</th>\n",
       "      <th>...</th>\n",
       "      <th>改套餐明细</th>\n",
       "      <th>天翼看家</th>\n",
       "      <th>过户</th>\n",
       "      <th>套餐停机</th>\n",
       "      <th>融合</th>\n",
       "      <th>单卡</th>\n",
       "      <th>补卡</th>\n",
       "      <th>多类型业务</th>\n",
       "      <th>多笔业务</th>\n",
       "      <th>智家产品新装</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>5690</th>\n",
       "      <td>补卡 &lt; num &gt; UIM &lt; num &gt;</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11170</th>\n",
       "      <td>将 用户名 下以 停机 业务 办理 销户 懒装 &lt; num &gt; 订单 联系 &lt; num &gt;</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12813</th>\n",
       "      <td>&lt; num &gt; 号码 加 摄像头 摄像头 串码 &lt; num &gt; 用户 联系 号 &lt; num ...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>3 rows × 21 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                                                   words  未标记  全屋wifi加装  \\\n",
       "5690                              补卡 < num > UIM < num >    0         0   \n",
       "11170      将 用户名 下以 停机 业务 办理 销户 懒装 < num > 订单 联系 < num >    1         0   \n",
       "12813  < num > 号码 加 摄像头 摄像头 串码 < num > 用户 联系 号 < num ...    0         0   \n",
       "\n",
       "       全屋wifi月租包  套餐互转  智家产品  天翼看家新装  单宽带  套餐注销  叠加包订购  ...  改套餐明细  天翼看家  过户  \\\n",
       "5690           0     0     0       0    0     0      0  ...      0     0   0   \n",
       "11170          0     0     0       0    0     0      0  ...      0     0   0   \n",
       "12813          0     0     0       1    0     0      0  ...      0     0   0   \n",
       "\n",
       "       套餐停机  融合  单卡  补卡  多类型业务  多笔业务  智家产品新装  \n",
       "5690      0   0   0   1      0     0       0  \n",
       "11170     0   0   0   0      0     0       0  \n",
       "12813     0   0   0   0      0     0       0  \n",
       "\n",
       "[3 rows x 21 columns]"
      ]
     },
     "execution_count": 4,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.sample(3)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "id": "bb237328",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "(7599, 21)"
      ]
     },
     "execution_count": 5,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df=df[df['未标记']==0]\n",
    "df.shape"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "id": "01785a45",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>words</th>\n",
       "      <th>未标记</th>\n",
       "      <th>全屋wifi加装</th>\n",
       "      <th>全屋wifi月租包</th>\n",
       "      <th>套餐互转</th>\n",
       "      <th>智家产品</th>\n",
       "      <th>天翼看家新装</th>\n",
       "      <th>单宽带</th>\n",
       "      <th>套餐注销</th>\n",
       "      <th>叠加包订购</th>\n",
       "      <th>...</th>\n",
       "      <th>改套餐明细</th>\n",
       "      <th>天翼看家</th>\n",
       "      <th>过户</th>\n",
       "      <th>套餐停机</th>\n",
       "      <th>融合</th>\n",
       "      <th>单卡</th>\n",
       "      <th>补卡</th>\n",
       "      <th>多类型业务</th>\n",
       "      <th>多笔业务</th>\n",
       "      <th>智家产品新装</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>11107</th>\n",
       "      <td>&lt; num &gt; 加装 家庭 标准版 云 电脑 优惠 &lt; num &gt; 元 邮箱 &lt; num &gt;...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5358</th>\n",
       "      <td>&lt; num &gt; 大 流量 卡 一百 分钟 通话 &lt; num &gt; G 流量 加 &lt; num &gt;...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5320</th>\n",
       "      <td>&lt; num &gt; 加 促销 存 &lt; num &gt; 元赠 &lt; num &gt; 元 促销 分 &lt; num...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>13222</th>\n",
       "      <td>复制 卡 号码 &lt; num &gt; 卡串 &lt; num &gt;</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>13841</th>\n",
       "      <td>办理 &lt; num &gt; G &lt; num &gt; 融合 套餐 做 &lt; num &gt; 元 折扣 优惠 加...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>5 rows × 21 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                                                   words  未标记  全屋wifi加装  \\\n",
       "11107  < num > 加装 家庭 标准版 云 电脑 优惠 < num > 元 邮箱 < num >...    0         0   \n",
       "5358   < num > 大 流量 卡 一百 分钟 通话 < num > G 流量 加 < num >...    0         0   \n",
       "5320   < num > 加 促销 存 < num > 元赠 < num > 元 促销 分 < num...    0         0   \n",
       "13222                         复制 卡 号码 < num > 卡串 < num >    0         0   \n",
       "13841  办理 < num > G < num > 融合 套餐 做 < num > 元 折扣 优惠 加...    0         0   \n",
       "\n",
       "       全屋wifi月租包  套餐互转  智家产品  天翼看家新装  单宽带  套餐注销  叠加包订购  ...  改套餐明细  天翼看家  过户  \\\n",
       "11107          0     0     0       0    0     0      1  ...      0     0   0   \n",
       "5358           0     0     0       0    0     0      0  ...      0     0   0   \n",
       "5320           0     0     0       0    0     0      1  ...      0     0   0   \n",
       "13222          0     0     0       0    0     0      0  ...      0     0   0   \n",
       "13841          0     0     1       0    0     0      0  ...      0     0   0   \n",
       "\n",
       "       套餐停机  融合  单卡  补卡  多类型业务  多笔业务  智家产品新装  \n",
       "11107     0   0   0   0      0     0       0  \n",
       "5358      0   0   1   0      0     0       0  \n",
       "5320      0   0   0   0      0     0       0  \n",
       "13222     0   0   0   1      0     0       0  \n",
       "13841     0   0   0   0      0     0       0  \n",
       "\n",
       "[5 rows x 21 columns]"
      ]
     },
     "execution_count": 6,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.sample(5)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "id": "f86655e1",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "label_cols = df.columns[2:]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "id": "282d0eab",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "train, test = train_test_split(df,test_size=0.3)\n",
    "lens = train.words.str.len()\n",
    "# print(lens.mean(), lens.std(), lens.max())"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "id": "2680e522",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "COMMENT = 'words'\n",
    "train[COMMENT].fillna(\"unknown\", inplace=True)\n",
    "test[COMMENT].fillna(\"unknown\", inplace=True)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "fb8199cf",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "id": "a3769696",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "vec = TfidfVectorizer(strip_accents='unicode',min_df=0.0015,max_df=0.95)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "97eb7c47",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "id": "b8746873",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "trn_term_doc = vec.fit_transform(train[COMMENT])\n",
    "test_term_doc = vec.transform(test[COMMENT])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "id": "45ff2ac1",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "/Users/imac/PycharmProjects/tagging-platform-backend/venv/lib/python3.10/site-packages/sklearn/utils/deprecation.py:87: FutureWarning: Function get_feature_names is deprecated; get_feature_names is deprecated in 1.0 and will be removed in 1.2. Please use get_feature_names_out instead.\n",
      "  warnings.warn(msg, category=FutureWarning)\n"
     ]
    },
    {
     "data": {
      "text/plain": [
       "['ai',\n",
       " 'cn',\n",
       " 'crm',\n",
       " 'ftth',\n",
       " 'gb',\n",
       " 'gf',\n",
       " 'iccid',\n",
       " 'iptv',\n",
       " 'itv',\n",
       " 'jc',\n",
       " 'obd',\n",
       " 'pstylepaddingleft',\n",
       " 'px',\n",
       " 'pxoverflowhiddenspanstylefloatleftwidth',\n",
       " 'qqcom',\n",
       " 'spanp',\n",
       " 'spanspanstylefloatleftwidth',\n",
       " 'uim',\n",
       " 'um',\n",
       " 'vip',\n",
       " 'wifi',\n",
       " 'wifijc',\n",
       " 'wordbreakbreakall',\n",
       " 'ygf',\n",
       " '一个',\n",
       " '一元',\n",
       " '一号',\n",
       " '一年',\n",
       " '一张',\n",
       " '一户',\n",
       " '一次',\n",
       " '一次性',\n",
       " '一点',\n",
       " '一路',\n",
       " '七天',\n",
       " '三原县',\n",
       " '三年',\n",
       " '上光',\n",
       " '上月',\n",
       " '上网',\n",
       " '上面',\n",
       " '下午',\n",
       " '不变',\n",
       " '不含',\n",
       " '不带',\n",
       " '不要',\n",
       " '专用',\n",
       " '业务',\n",
       " '业务员',\n",
       " '业务联系',\n",
       " '东城',\n",
       " '东大街',\n",
       " '东村',\n",
       " '东镇',\n",
       " '两个',\n",
       " '两张',\n",
       " '中国电信',\n",
       " '丰仪',\n",
       " '串码',\n",
       " '主卡',\n",
       " '义门',\n",
       " '乡镇',\n",
       " '乾县',\n",
       " '二路',\n",
       " '云回',\n",
       " '互打',\n",
       " '互转',\n",
       " '五级',\n",
       " '人史昌虎',\n",
       " '人号',\n",
       " '人员',\n",
       " '人拦',\n",
       " '代理',\n",
       " '以后',\n",
       " '仪井镇',\n",
       " '仪门',\n",
       " '企业',\n",
       " '优惠',\n",
       " '优惠卡',\n",
       " '会员',\n",
       " '位不含',\n",
       " '低渗',\n",
       " '低滲',\n",
       " '作为',\n",
       " '使用',\n",
       " '促销',\n",
       " '促销员',\n",
       " '保留',\n",
       " '信息',\n",
       " '做存',\n",
       " '做预',\n",
       " '停机',\n",
       " '元云回',\n",
       " '元享',\n",
       " '元免',\n",
       " '元分',\n",
       " '元加',\n",
       " '元包',\n",
       " '元卡',\n",
       " '元卡串',\n",
       " '元大',\n",
       " '元天翼',\n",
       " '元揽装',\n",
       " '元智',\n",
       " '元月',\n",
       " '元档',\n",
       " '元用',\n",
       " '元翼',\n",
       " '元赠',\n",
       " '元返',\n",
       " '元集',\n",
       " '光分',\n",
       " '光猫',\n",
       " '光纤',\n",
       " '光网',\n",
       " '免制',\n",
       " '免费',\n",
       " '全国',\n",
       " '全天',\n",
       " '全套',\n",
       " '全屋',\n",
       " '全部',\n",
       " '公司',\n",
       " '共享',\n",
       " '共计',\n",
       " '关系',\n",
       " '兴平',\n",
       " '兴平市',\n",
       " '其中',\n",
       " '内含',\n",
       " '内容',\n",
       " '再加',\n",
       " '分光',\n",
       " '分期',\n",
       " '分箱',\n",
       " '分纤盒',\n",
       " '分纤箱',\n",
       " '分钟',\n",
       " '利旧',\n",
       " '制卡',\n",
       " '副卡',\n",
       " '办理',\n",
       " '功能',\n",
       " '加入',\n",
       " '加全屋',\n",
       " '加天翼',\n",
       " '加存',\n",
       " '加装',\n",
       " '加载',\n",
       " '加送',\n",
       " '加集',\n",
       " '助销员',\n",
       " '包加',\n",
       " '包加集',\n",
       " '包卡',\n",
       " '包卡串',\n",
       " '包含',\n",
       " '包天',\n",
       " '包年',\n",
       " '包年加',\n",
       " '包揽',\n",
       " '包迁',\n",
       " '包送',\n",
       " '北极',\n",
       " '北路',\n",
       " '十天',\n",
       " '千兆',\n",
       " '升级',\n",
       " '升级包',\n",
       " '华丹琪',\n",
       " '协议',\n",
       " '单人',\n",
       " '单元',\n",
       " '单卡',\n",
       " '单员',\n",
       " '单子',\n",
       " '卡串',\n",
       " '卡串码',\n",
       " '卡加',\n",
       " '卡卡',\n",
       " '卡号',\n",
       " '卡存',\n",
       " '卡月交',\n",
       " '卡码',\n",
       " '卡费',\n",
       " '卡通',\n",
       " '原有',\n",
       " '县普',\n",
       " '县普集',\n",
       " '县游',\n",
       " '发展',\n",
       " '取消',\n",
       " '受理',\n",
       " '变更',\n",
       " '叠加',\n",
       " '号楼',\n",
       " '号段',\n",
       " '号码',\n",
       " '合入',\n",
       " '合厅',\n",
       " '合约',\n",
       " '合计',\n",
       " '合账',\n",
       " '同一',\n",
       " '名下',\n",
       " '名字',\n",
       " '名称',\n",
       " '后台',\n",
       " '后期',\n",
       " '后面',\n",
       " '周围',\n",
       " '咸阳市',\n",
       " '唐振',\n",
       " '商铺',\n",
       " '四位',\n",
       " '回收',\n",
       " '回看',\n",
       " '固话',\n",
       " '国际',\n",
       " '土桥',\n",
       " '地址',\n",
       " '城关',\n",
       " '城关镇',\n",
       " '基础',\n",
       " '堡子',\n",
       " '备注',\n",
       " '复制',\n",
       " '复机',\n",
       " '外放',\n",
       " '大墙',\n",
       " '大庄',\n",
       " '大王',\n",
       " '天云',\n",
       " '天回',\n",
       " '天翼',\n",
       " '头村',\n",
       " '套餐',\n",
       " '好些',\n",
       " '好记',\n",
       " '姓名',\n",
       " '宁镇',\n",
       " '安装',\n",
       " '定向',\n",
       " '实交',\n",
       " '实现',\n",
       " '客户',\n",
       " '客户经理',\n",
       " '家乡',\n",
       " '家属楼',\n",
       " '家庭',\n",
       " '家村',\n",
       " '家门口',\n",
       " '宽带',\n",
       " '密码',\n",
       " '对面',\n",
       " '小区',\n",
       " '小村镇',\n",
       " '小章',\n",
       " '尽量',\n",
       " '尾号',\n",
       " '山村',\n",
       " '峰阳',\n",
       " '峰阳镇',\n",
       " '巨家镇',\n",
       " '市场',\n",
       " '带不带',\n",
       " '底渗',\n",
       " '店头',\n",
       " '座机',\n",
       " '建国',\n",
       " '开卡',\n",
       " '开户费',\n",
       " '开通',\n",
       " '张卡',\n",
       " '张家村',\n",
       " '张洪镇',\n",
       " '彬县',\n",
       " '徐海',\n",
       " '御驾',\n",
       " '心包',\n",
       " '懒装',\n",
       " '所有',\n",
       " '手工',\n",
       " '手机',\n",
       " '手机卡',\n",
       " '手机号',\n",
       " '手机号码',\n",
       " '打电话',\n",
       " '扩增',\n",
       " '扩容',\n",
       " '承包人',\n",
       " '折合',\n",
       " '折扣',\n",
       " '拆前',\n",
       " '拆机',\n",
       " '拆除',\n",
       " '拨打',\n",
       " '挑剔',\n",
       " '提供',\n",
       " '揽装',\n",
       " '携入',\n",
       " '携号',\n",
       " '携转',\n",
       " '摄像头',\n",
       " '支付',\n",
       " '收回',\n",
       " '改为',\n",
       " '放心',\n",
       " '整体',\n",
       " '新办',\n",
       " '新城',\n",
       " '新扩',\n",
       " '新村',\n",
       " '新民',\n",
       " '新装',\n",
       " '无忧',\n",
       " '无货',\n",
       " '旬邑县',\n",
       " '时间',\n",
       " '明天',\n",
       " '星级',\n",
       " '春兰',\n",
       " '昭陵',\n",
       " '智家',\n",
       " '智慧',\n",
       " '智能',\n",
       " '暂停',\n",
       " '暂无',\n",
       " '更换',\n",
       " '月付',\n",
       " '月租',\n",
       " '有事',\n",
       " '期卡串',\n",
       " '机顶盒',\n",
       " '权益',\n",
       " '杆上',\n",
       " '李随',\n",
       " '村光分',\n",
       " '村镇',\n",
       " '杨亮',\n",
       " '杨科',\n",
       " '标准',\n",
       " '桑镇',\n",
       " '正常',\n",
       " '步步高',\n",
       " '武功',\n",
       " '殷萍',\n",
       " '每个',\n",
       " '每月',\n",
       " '比较',\n",
       " '永乐镇',\n",
       " '永寿',\n",
       " '永寿县',\n",
       " '河道',\n",
       " '注销',\n",
       " '洞乡',\n",
       " '流量',\n",
       " '测评',\n",
       " '测试',\n",
       " '淳化县',\n",
       " '添加',\n",
       " '渗加',\n",
       " '渡马镇',\n",
       " '渭城区',\n",
       " '漏油',\n",
       " '灵源',\n",
       " '炫蓝',\n",
       " '点至',\n",
       " '烟霞',\n",
       " '烽火',\n",
       " '版串码',\n",
       " '版云回',\n",
       " '版加',\n",
       " '版天翼',\n",
       " '王亚云',\n",
       " '用户',\n",
       " '用户名',\n",
       " '甩单',\n",
       " '申请',\n",
       " '电信',\n",
       " '电信公司',\n",
       " '电杆',\n",
       " '电脑',\n",
       " '电视',\n",
       " '电视信号',\n",
       " '电话',\n",
       " '畅享',\n",
       " '登录',\n",
       " '监军',\n",
       " '监控',\n",
       " '盒子',\n",
       " '省内',\n",
       " '看免',\n",
       " '看加',\n",
       " '看家',\n",
       " '看选',\n",
       " '短信',\n",
       " '短缺',\n",
       " '礼包',\n",
       " '礼泉',\n",
       " '礼泉县',\n",
       " '社区',\n",
       " '社采版',\n",
       " '秦都区',\n",
       " '移动',\n",
       " '移机',\n",
       " '竣工',\n",
       " '第二路',\n",
       " '纤箱',\n",
       " '终端',\n",
       " '终端设备',\n",
       " '经办人',\n",
       " '绑定',\n",
       " '编码',\n",
       " '缺货',\n",
       " '网速',\n",
       " '职田镇',\n",
       " '联合',\n",
       " '联系',\n",
       " '联系人',\n",
       " '联系方式',\n",
       " '联系电话',\n",
       " '肖亚妮',\n",
       " '自主',\n",
       " '自备',\n",
       " '自己',\n",
       " '花园',\n",
       " '苏坊',\n",
       " '药王',\n",
       " '营业',\n",
       " '营业厅',\n",
       " '营业员',\n",
       " '葛瑞婷',\n",
       " '薛录',\n",
       " '融入',\n",
       " '融到',\n",
       " '融合',\n",
       " '融进',\n",
       " '街道',\n",
       " '补卡',\n",
       " '装人',\n",
       " '装人华丹琪',\n",
       " '装机',\n",
       " '装码',\n",
       " '裝码',\n",
       " '西兰',\n",
       " '西张堡',\n",
       " '要求',\n",
       " '观音堂',\n",
       " '视频',\n",
       " '订单',\n",
       " '订购',\n",
       " '设备',\n",
       " '证件',\n",
       " '话费',\n",
       " '语音',\n",
       " '调测',\n",
       " '调试',\n",
       " '谢谢',\n",
       " '谢谢您',\n",
       " '豆家镇',\n",
       " '豪庭',\n",
       " '贞元',\n",
       " '账卡',\n",
       " '账号',\n",
       " '账户',\n",
       " '费用',\n",
       " '赠费',\n",
       " '赠费分',\n",
       " '赠费加',\n",
       " '赠送',\n",
       " '赵镇',\n",
       " '超出',\n",
       " '路名',\n",
       " '路由器',\n",
       " '身份证',\n",
       " '身份证号',\n",
       " '车坞',\n",
       " '转为',\n",
       " '转网',\n",
       " '辛苦',\n",
       " '迁升',\n",
       " '迁转',\n",
       " '过户',\n",
       " '返费',\n",
       " '返还',\n",
       " '这个',\n",
       " '进账',\n",
       " '连系',\n",
       " '送集',\n",
       " '选号',\n",
       " '选好',\n",
       " '通信',\n",
       " '通用',\n",
       " '通话',\n",
       " '避开',\n",
       " '邮箱',\n",
       " '郭婷',\n",
       " '采版',\n",
       " '里面',\n",
       " '重新',\n",
       " '销售',\n",
       " '销户',\n",
       " '镇上',\n",
       " '镇南',\n",
       " '长期',\n",
       " '长武县',\n",
       " '门前',\n",
       " '门口',\n",
       " '问题',\n",
       " '阳洪镇',\n",
       " '阿娟',\n",
       " '陈中',\n",
       " '陕西省',\n",
       " '随后',\n",
       " '随机',\n",
       " '集采',\n",
       " '集采版',\n",
       " '集镇',\n",
       " '顺口',\n",
       " '预交',\n",
       " '预制',\n",
       " '预存',\n",
       " '预留',\n",
       " '预约',\n",
       " '风镇',\n",
       " '首次',\n",
       " '马坊',\n",
       " '马连乡',\n",
       " '验证码',\n",
       " '骏马',\n",
       " '麻烦']"
      ]
     },
     "execution_count": 12,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "vec.get_feature_names()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "id": "26b28726",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "def pr(y_i, y):\n",
    "    p = x[y == y_i].sum(0)\n",
    "    return (p + 1) / ((y == y_i).sum() + 1)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "id": "264fc448",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "x = trn_term_doc\n",
    "test_x = test_term_doc\n",
    "\n",
    "def get_mdl(y):\n",
    "    y = y.values\n",
    "    r = np.log(pr(1, y) / pr(0, y))\n",
    "    m = LogisticRegression(C=4, dual=False)\n",
    "    x_nb = x.multiply(r)\n",
    "    return m.fit(x_nb, y), r"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 45,
   "id": "d5f9d7dd",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "fit 全屋wifi加装\n",
      "fit 全屋wifi月租包\n",
      "fit 套餐互转\n",
      "fit 智家产品\n",
      "fit 天翼看家新装\n",
      "fit 单宽带\n",
      "fit 套餐注销\n",
      "fit 叠加包订购\n",
      "fit 移机\n",
      "fit 改套餐明细\n",
      "fit 天翼看家\n",
      "fit 过户\n",
      "fit 套餐停机\n",
      "fit 融合\n",
      "fit 单卡\n",
      "fit 补卡\n",
      "fit 多类型业务\n",
      "fit 多笔业务\n",
      "fit 智家产品新装\n"
     ]
    }
   ],
   "source": [
    "preds = np.zeros((len(test), len(label_cols)))\n",
    "\n",
    "for i, j in enumerate(label_cols):\n",
    "    print('fit', j)\n",
    "    m, r = get_mdl(train[j])\n",
    "    preds[:, i] = m.predict_proba(test_x.multiply(r))[:, 1]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 46,
   "id": "10387c0c",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "df=pandas.DataFrame(preds)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 47,
   "id": "8f2cae89",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "df.columns=label_cols"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 48,
   "id": "8591e99f",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>全屋wifi加装</th>\n",
       "      <th>全屋wifi月租包</th>\n",
       "      <th>套餐互转</th>\n",
       "      <th>智家产品</th>\n",
       "      <th>天翼看家新装</th>\n",
       "      <th>单宽带</th>\n",
       "      <th>套餐注销</th>\n",
       "      <th>叠加包订购</th>\n",
       "      <th>移机</th>\n",
       "      <th>改套餐明细</th>\n",
       "      <th>天翼看家</th>\n",
       "      <th>过户</th>\n",
       "      <th>套餐停机</th>\n",
       "      <th>融合</th>\n",
       "      <th>单卡</th>\n",
       "      <th>补卡</th>\n",
       "      <th>多类型业务</th>\n",
       "      <th>多笔业务</th>\n",
       "      <th>智家产品新装</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>0.000138</td>\n",
       "      <td>0.000104</td>\n",
       "      <td>0.000848</td>\n",
       "      <td>0.045027</td>\n",
       "      <td>0.952824</td>\n",
       "      <td>0.000191</td>\n",
       "      <td>0.019226</td>\n",
       "      <td>3.661449e-03</td>\n",
       "      <td>0.002369</td>\n",
       "      <td>0.000840</td>\n",
       "      <td>0.164838</td>\n",
       "      <td>0.004448</td>\n",
       "      <td>0.000491</td>\n",
       "      <td>0.016488</td>\n",
       "      <td>2.235052e-03</td>\n",
       "      <td>0.000023</td>\n",
       "      <td>0.060832</td>\n",
       "      <td>0.078070</td>\n",
       "      <td>0.336918</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>0.000233</td>\n",
       "      <td>0.000496</td>\n",
       "      <td>0.493307</td>\n",
       "      <td>0.002154</td>\n",
       "      <td>0.001587</td>\n",
       "      <td>0.000095</td>\n",
       "      <td>0.006173</td>\n",
       "      <td>1.187287e-02</td>\n",
       "      <td>0.014422</td>\n",
       "      <td>0.005235</td>\n",
       "      <td>0.070044</td>\n",
       "      <td>0.032959</td>\n",
       "      <td>0.000138</td>\n",
       "      <td>0.039824</td>\n",
       "      <td>3.860675e-04</td>\n",
       "      <td>0.000502</td>\n",
       "      <td>0.012667</td>\n",
       "      <td>0.012707</td>\n",
       "      <td>0.001228</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>0.002564</td>\n",
       "      <td>0.000848</td>\n",
       "      <td>0.007711</td>\n",
       "      <td>0.000245</td>\n",
       "      <td>0.002027</td>\n",
       "      <td>0.000079</td>\n",
       "      <td>0.017201</td>\n",
       "      <td>2.540567e-02</td>\n",
       "      <td>0.000694</td>\n",
       "      <td>0.000303</td>\n",
       "      <td>0.001206</td>\n",
       "      <td>0.001558</td>\n",
       "      <td>0.000067</td>\n",
       "      <td>0.006847</td>\n",
       "      <td>4.392345e-03</td>\n",
       "      <td>0.852841</td>\n",
       "      <td>0.001080</td>\n",
       "      <td>0.000755</td>\n",
       "      <td>0.000075</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>0.000271</td>\n",
       "      <td>0.000263</td>\n",
       "      <td>0.004564</td>\n",
       "      <td>0.003304</td>\n",
       "      <td>0.008032</td>\n",
       "      <td>0.003628</td>\n",
       "      <td>0.011057</td>\n",
       "      <td>6.304203e-04</td>\n",
       "      <td>0.001477</td>\n",
       "      <td>0.000328</td>\n",
       "      <td>0.550406</td>\n",
       "      <td>0.002107</td>\n",
       "      <td>0.001429</td>\n",
       "      <td>0.226531</td>\n",
       "      <td>1.773020e-03</td>\n",
       "      <td>0.002073</td>\n",
       "      <td>0.055621</td>\n",
       "      <td>0.001520</td>\n",
       "      <td>0.000853</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>0.000379</td>\n",
       "      <td>0.000229</td>\n",
       "      <td>0.050313</td>\n",
       "      <td>0.000264</td>\n",
       "      <td>0.002350</td>\n",
       "      <td>0.000816</td>\n",
       "      <td>0.971656</td>\n",
       "      <td>1.470124e-02</td>\n",
       "      <td>0.011159</td>\n",
       "      <td>0.000267</td>\n",
       "      <td>0.000142</td>\n",
       "      <td>0.005365</td>\n",
       "      <td>0.000047</td>\n",
       "      <td>0.045593</td>\n",
       "      <td>5.903649e-04</td>\n",
       "      <td>0.000215</td>\n",
       "      <td>0.015628</td>\n",
       "      <td>0.059105</td>\n",
       "      <td>0.000059</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>0.000204</td>\n",
       "      <td>0.000435</td>\n",
       "      <td>0.918966</td>\n",
       "      <td>0.001464</td>\n",
       "      <td>0.002089</td>\n",
       "      <td>0.000065</td>\n",
       "      <td>0.003718</td>\n",
       "      <td>9.559442e-03</td>\n",
       "      <td>0.001163</td>\n",
       "      <td>0.000509</td>\n",
       "      <td>0.017839</td>\n",
       "      <td>0.006118</td>\n",
       "      <td>0.000062</td>\n",
       "      <td>0.022908</td>\n",
       "      <td>2.071719e-03</td>\n",
       "      <td>0.000936</td>\n",
       "      <td>0.012557</td>\n",
       "      <td>0.014067</td>\n",
       "      <td>0.000040</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>0.000035</td>\n",
       "      <td>0.000039</td>\n",
       "      <td>0.000149</td>\n",
       "      <td>0.000020</td>\n",
       "      <td>0.000365</td>\n",
       "      <td>0.000092</td>\n",
       "      <td>0.000228</td>\n",
       "      <td>7.553018e-08</td>\n",
       "      <td>0.000216</td>\n",
       "      <td>0.000020</td>\n",
       "      <td>0.000032</td>\n",
       "      <td>0.000052</td>\n",
       "      <td>0.000052</td>\n",
       "      <td>0.000289</td>\n",
       "      <td>2.394946e-08</td>\n",
       "      <td>0.999935</td>\n",
       "      <td>0.000308</td>\n",
       "      <td>0.004081</td>\n",
       "      <td>0.000087</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7</th>\n",
       "      <td>0.009347</td>\n",
       "      <td>0.003645</td>\n",
       "      <td>0.000371</td>\n",
       "      <td>0.705524</td>\n",
       "      <td>0.007229</td>\n",
       "      <td>0.000080</td>\n",
       "      <td>0.001652</td>\n",
       "      <td>1.376270e-05</td>\n",
       "      <td>0.005822</td>\n",
       "      <td>0.000448</td>\n",
       "      <td>0.054527</td>\n",
       "      <td>0.002517</td>\n",
       "      <td>0.000113</td>\n",
       "      <td>0.139430</td>\n",
       "      <td>1.526826e-05</td>\n",
       "      <td>0.000126</td>\n",
       "      <td>0.010909</td>\n",
       "      <td>0.081513</td>\n",
       "      <td>0.001443</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8</th>\n",
       "      <td>0.000623</td>\n",
       "      <td>0.000213</td>\n",
       "      <td>0.804352</td>\n",
       "      <td>0.000982</td>\n",
       "      <td>0.000281</td>\n",
       "      <td>0.000087</td>\n",
       "      <td>0.006278</td>\n",
       "      <td>3.513955e-02</td>\n",
       "      <td>0.002881</td>\n",
       "      <td>0.005829</td>\n",
       "      <td>0.002846</td>\n",
       "      <td>0.010985</td>\n",
       "      <td>0.000042</td>\n",
       "      <td>0.139601</td>\n",
       "      <td>7.249130e-04</td>\n",
       "      <td>0.000399</td>\n",
       "      <td>0.099136</td>\n",
       "      <td>0.005694</td>\n",
       "      <td>0.000058</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9</th>\n",
       "      <td>0.000392</td>\n",
       "      <td>0.005186</td>\n",
       "      <td>0.003371</td>\n",
       "      <td>0.001596</td>\n",
       "      <td>0.000939</td>\n",
       "      <td>0.000096</td>\n",
       "      <td>0.005134</td>\n",
       "      <td>2.093948e-03</td>\n",
       "      <td>0.000631</td>\n",
       "      <td>0.000865</td>\n",
       "      <td>0.614915</td>\n",
       "      <td>0.002388</td>\n",
       "      <td>0.000073</td>\n",
       "      <td>0.421701</td>\n",
       "      <td>1.273705e-02</td>\n",
       "      <td>0.000920</td>\n",
       "      <td>0.013361</td>\n",
       "      <td>0.000577</td>\n",
       "      <td>0.000187</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   全屋wifi加装  全屋wifi月租包      套餐互转      智家产品    天翼看家新装       单宽带      套餐注销  \\\n",
       "0  0.000138   0.000104  0.000848  0.045027  0.952824  0.000191  0.019226   \n",
       "1  0.000233   0.000496  0.493307  0.002154  0.001587  0.000095  0.006173   \n",
       "2  0.002564   0.000848  0.007711  0.000245  0.002027  0.000079  0.017201   \n",
       "3  0.000271   0.000263  0.004564  0.003304  0.008032  0.003628  0.011057   \n",
       "4  0.000379   0.000229  0.050313  0.000264  0.002350  0.000816  0.971656   \n",
       "5  0.000204   0.000435  0.918966  0.001464  0.002089  0.000065  0.003718   \n",
       "6  0.000035   0.000039  0.000149  0.000020  0.000365  0.000092  0.000228   \n",
       "7  0.009347   0.003645  0.000371  0.705524  0.007229  0.000080  0.001652   \n",
       "8  0.000623   0.000213  0.804352  0.000982  0.000281  0.000087  0.006278   \n",
       "9  0.000392   0.005186  0.003371  0.001596  0.000939  0.000096  0.005134   \n",
       "\n",
       "          叠加包订购        移机     改套餐明细      天翼看家        过户      套餐停机        融合  \\\n",
       "0  3.661449e-03  0.002369  0.000840  0.164838  0.004448  0.000491  0.016488   \n",
       "1  1.187287e-02  0.014422  0.005235  0.070044  0.032959  0.000138  0.039824   \n",
       "2  2.540567e-02  0.000694  0.000303  0.001206  0.001558  0.000067  0.006847   \n",
       "3  6.304203e-04  0.001477  0.000328  0.550406  0.002107  0.001429  0.226531   \n",
       "4  1.470124e-02  0.011159  0.000267  0.000142  0.005365  0.000047  0.045593   \n",
       "5  9.559442e-03  0.001163  0.000509  0.017839  0.006118  0.000062  0.022908   \n",
       "6  7.553018e-08  0.000216  0.000020  0.000032  0.000052  0.000052  0.000289   \n",
       "7  1.376270e-05  0.005822  0.000448  0.054527  0.002517  0.000113  0.139430   \n",
       "8  3.513955e-02  0.002881  0.005829  0.002846  0.010985  0.000042  0.139601   \n",
       "9  2.093948e-03  0.000631  0.000865  0.614915  0.002388  0.000073  0.421701   \n",
       "\n",
       "             单卡        补卡     多类型业务      多笔业务    智家产品新装  \n",
       "0  2.235052e-03  0.000023  0.060832  0.078070  0.336918  \n",
       "1  3.860675e-04  0.000502  0.012667  0.012707  0.001228  \n",
       "2  4.392345e-03  0.852841  0.001080  0.000755  0.000075  \n",
       "3  1.773020e-03  0.002073  0.055621  0.001520  0.000853  \n",
       "4  5.903649e-04  0.000215  0.015628  0.059105  0.000059  \n",
       "5  2.071719e-03  0.000936  0.012557  0.014067  0.000040  \n",
       "6  2.394946e-08  0.999935  0.000308  0.004081  0.000087  \n",
       "7  1.526826e-05  0.000126  0.010909  0.081513  0.001443  \n",
       "8  7.249130e-04  0.000399  0.099136  0.005694  0.000058  \n",
       "9  1.273705e-02  0.000920  0.013361  0.000577  0.000187  "
      ]
     },
     "execution_count": 48,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "df.head(10)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "id": "01c8ef00",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['单卡', '补卡', '补卡', '套餐注销', '天翼看家']"
      ]
     },
     "execution_count": 19,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": []
  },
  {
   "cell_type": "code",
   "execution_count": 52,
   "id": "c4faaae9",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "dflabels=df.idxmax(axis=1).head(10).values.tolist()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 53,
   "id": "d29e1d93",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['天翼看家新装', '套餐互转', '补卡', '天翼看家', '套餐注销', '套餐互转', '补卡', '智家产品', '套餐互转', '天翼看家']"
      ]
     },
     "execution_count": 53,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "dflabels"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 54,
   "id": "b6e4d244",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "t=pandas.DataFrame(test).drop(['未标记','words'],axis=1)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 55,
   "id": "893b74b5",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>全屋wifi加装</th>\n",
       "      <th>全屋wifi月租包</th>\n",
       "      <th>套餐互转</th>\n",
       "      <th>智家产品</th>\n",
       "      <th>天翼看家新装</th>\n",
       "      <th>单宽带</th>\n",
       "      <th>套餐注销</th>\n",
       "      <th>叠加包订购</th>\n",
       "      <th>移机</th>\n",
       "      <th>改套餐明细</th>\n",
       "      <th>天翼看家</th>\n",
       "      <th>过户</th>\n",
       "      <th>套餐停机</th>\n",
       "      <th>融合</th>\n",
       "      <th>单卡</th>\n",
       "      <th>补卡</th>\n",
       "      <th>多类型业务</th>\n",
       "      <th>多笔业务</th>\n",
       "      <th>智家产品新装</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>13369</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10707</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12388</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12010</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>12148</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8788</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8285</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7406</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>14128</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5435</th>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "       全屋wifi加装  全屋wifi月租包  套餐互转  智家产品  天翼看家新装  单宽带  套餐注销  叠加包订购  移机  改套餐明细  \\\n",
       "13369         0          0     0     0       1    0     0      0   0      0   \n",
       "10707         0          0     1     0       0    0     0      0   0      0   \n",
       "12388         0          0     0     0       0    0     0      0   0      0   \n",
       "12010         0          0     0     0       0    0     0      0   0      0   \n",
       "12148         0          0     0     0       0    0     1      0   0      0   \n",
       "8788          0          0     1     0       0    0     0      0   0      0   \n",
       "8285          0          0     0     0       0    0     0      0   0      0   \n",
       "7406          0          0     0     1       0    0     0      0   0      0   \n",
       "14128         0          0     1     0       0    0     0      0   0      0   \n",
       "5435          0          0     0     0       0    0     0      0   0      0   \n",
       "\n",
       "       天翼看家  过户  套餐停机  融合  单卡  补卡  多类型业务  多笔业务  智家产品新装  \n",
       "13369     0   0     0   0   0   0      0     0       0  \n",
       "10707     0   0     0   0   0   0      0     0       0  \n",
       "12388     0   0     0   0   0   1      0     0       0  \n",
       "12010     0   0     0   1   0   0      0     0       0  \n",
       "12148     0   0     0   0   0   0      0     0       0  \n",
       "8788      0   0     0   0   0   0      0     0       0  \n",
       "8285      0   0     0   0   0   1      0     0       0  \n",
       "7406      0   0     0   0   0   0      0     0       0  \n",
       "14128     0   0     0   0   0   0      0     0       0  \n",
       "5435      1   0     0   0   0   0      0     0       0  "
      ]
     },
     "execution_count": 55,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "t.head(10)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 24,
   "id": "073f5cd2",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "tlabels=t.idxmax(axis=1).values.tolist()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 25,
   "id": "0e7349bf",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "train.sample(3)\n",
    "adf=train.drop(['未标记','words'],axis=1)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 26,
   "id": "f528635d",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "alabels=adf.idxmax(axis=1).values.tolist()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 27,
   "id": "38e8e284",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['套餐互转',\n",
       " '补卡',\n",
       " '智家产品',\n",
       " '融合',\n",
       " '单卡',\n",
       " '套餐互转',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '天翼看家新装',\n",
       " '智家产品',\n",
       " '全屋wifi月租包',\n",
       " '补卡',\n",
       " '过户',\n",
       " '套餐注销',\n",
       " '智家产品',\n",
       " '全屋wifi月租包',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '融合',\n",
       " '补卡',\n",
       " '融合',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '天翼看家',\n",
       " '单卡',\n",
       " '套餐注销',\n",
       " '智家产品',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '天翼看家新装',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '叠加包订购',\n",
       " '天翼看家',\n",
       " '多类型业务',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '融合',\n",
       " '融合',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '套餐注销',\n",
       " '单卡',\n",
       " '单卡',\n",
       " '叠加包订购',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '融合',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '移机',\n",
       " '单卡',\n",
       " '融合',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '融合',\n",
       " '补卡',\n",
       " '融合',\n",
       " '融合',\n",
       " '套餐互转',\n",
       " '全屋wifi加装',\n",
       " '单卡',\n",
       " '补卡',\n",
       " '融合',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '过户',\n",
       " '套餐互转',\n",
       " '叠加包订购',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '天翼看家',\n",
       " '套餐互转',\n",
       " '过户',\n",
       " '融合',\n",
       " '单卡',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '多类型业务',\n",
       " '智家产品',\n",
       " '全屋wifi加装',\n",
       " '补卡',\n",
       " '全屋wifi月租包',\n",
       " '补卡',\n",
       " '套餐注销',\n",
       " '多类型业务',\n",
       " '全屋wifi月租包',\n",
       " '天翼看家新装',\n",
       " '单卡',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '套餐互转',\n",
       " '融合',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '天翼看家',\n",
       " '叠加包订购',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '单卡',\n",
       " '智家产品',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '融合',\n",
       " '单卡',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '叠加包订购',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '叠加包订购',\n",
       " '单卡',\n",
       " '智家产品新装',\n",
       " '补卡',\n",
       " '智家产品',\n",
       " '智家产品',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '过户',\n",
       " '补卡',\n",
       " '融合',\n",
       " '智家产品新装',\n",
       " '补卡',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '全屋wifi加装',\n",
       " '智家产品',\n",
       " '套餐互转',\n",
       " '天翼看家',\n",
       " '智家产品',\n",
       " '补卡',\n",
       " '全屋wifi月租包',\n",
       " '移机',\n",
       " '补卡',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '融合',\n",
       " '叠加包订购',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '套餐注销',\n",
       " '全屋wifi加装',\n",
       " '单卡',\n",
       " '套餐互转',\n",
       " '全屋wifi加装',\n",
       " '智家产品',\n",
       " '套餐互转',\n",
       " '融合',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '融合',\n",
       " '天翼看家',\n",
       " '单卡',\n",
       " '智家产品',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '融合',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '全屋wifi月租包',\n",
       " '套餐互转',\n",
       " '套餐互转',\n",
       " '套餐注销',\n",
       " '单卡',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '多笔业务',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '套餐互转',\n",
       " '套餐互转',\n",
       " '叠加包订购',\n",
       " '融合',\n",
       " '叠加包订购',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '融合',\n",
       " '套餐互转',\n",
       " '天翼看家',\n",
       " '天翼看家新装',\n",
       " '套餐注销',\n",
       " '套餐互转',\n",
       " '天翼看家',\n",
       " '套餐注销',\n",
       " '天翼看家',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '全屋wifi月租包',\n",
       " '补卡',\n",
       " '天翼看家新装',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '移机',\n",
       " '补卡',\n",
       " '融合',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '全屋wifi月租包',\n",
       " '全屋wifi加装',\n",
       " '套餐互转',\n",
       " '智家产品',\n",
       " '补卡',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '叠加包订购',\n",
       " '全屋wifi月租包',\n",
       " '多笔业务',\n",
       " '天翼看家',\n",
       " '叠加包订购',\n",
       " '叠加包订购',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '套餐注销',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '套餐停机',\n",
       " '融合',\n",
       " '叠加包订购',\n",
       " '补卡',\n",
       " '天翼看家新装',\n",
       " '补卡',\n",
       " '智家产品',\n",
       " '融合',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '智家产品',\n",
       " '套餐注销',\n",
       " '智家产品',\n",
       " '改套餐明细',\n",
       " '多类型业务',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '融合',\n",
       " '天翼看家新装',\n",
       " '单卡',\n",
       " '多笔业务',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '天翼看家新装',\n",
       " '智家产品',\n",
       " '叠加包订购',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '套餐注销',\n",
       " '套餐注销',\n",
       " '天翼看家',\n",
       " '叠加包订购',\n",
       " '单卡',\n",
       " '单卡',\n",
       " '融合',\n",
       " '单卡',\n",
       " '单卡',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '智家产品',\n",
       " '叠加包订购',\n",
       " '叠加包订购',\n",
       " '叠加包订购',\n",
       " '天翼看家',\n",
       " '融合',\n",
       " '单卡',\n",
       " '单卡',\n",
       " '智家产品',\n",
       " '套餐注销',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '天翼看家',\n",
       " '融合',\n",
       " '天翼看家',\n",
       " '多笔业务',\n",
       " '移机',\n",
       " '补卡',\n",
       " '叠加包订购',\n",
       " '融合',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '智家产品',\n",
       " '天翼看家',\n",
       " '融合',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '多笔业务',\n",
       " '天翼看家',\n",
       " '叠加包订购',\n",
       " '单卡',\n",
       " '补卡',\n",
       " '叠加包订购',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '叠加包订购',\n",
       " '融合',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '过户',\n",
       " '智家产品',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '融合',\n",
       " '套餐停机',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '多类型业务',\n",
       " '套餐注销',\n",
       " '叠加包订购',\n",
       " '套餐注销',\n",
       " '套餐注销',\n",
       " '多类型业务',\n",
       " '套餐互转',\n",
       " '叠加包订购',\n",
       " '天翼看家',\n",
       " '过户',\n",
       " '单卡',\n",
       " '套餐互转',\n",
       " '套餐互转',\n",
       " '单卡',\n",
       " '单卡',\n",
       " '智家产品',\n",
       " '全屋wifi月租包',\n",
       " '融合',\n",
       " '单卡',\n",
       " '天翼看家新装',\n",
       " '补卡',\n",
       " '融合',\n",
       " '单卡',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '套餐注销',\n",
       " '单卡',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '过户',\n",
       " '单卡',\n",
       " '天翼看家',\n",
       " '融合',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '套餐互转',\n",
       " '天翼看家',\n",
       " '套餐注销',\n",
       " '单卡',\n",
       " '融合',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '改套餐明细',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '套餐注销',\n",
       " '叠加包订购',\n",
       " '天翼看家',\n",
       " '融合',\n",
       " '补卡',\n",
       " '融合',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '多类型业务',\n",
       " '天翼看家',\n",
       " '智家产品',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '融合',\n",
       " '补卡',\n",
       " '全屋wifi加装',\n",
       " '智家产品',\n",
       " '套餐互转',\n",
       " '全屋wifi加装',\n",
       " '融合',\n",
       " '套餐注销',\n",
       " '改套餐明细',\n",
       " '移机',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '智家产品',\n",
       " '套餐互转',\n",
       " '套餐停机',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '过户',\n",
       " '叠加包订购',\n",
       " '融合',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '套餐互转',\n",
       " '叠加包订购',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '天翼看家',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '改套餐明细',\n",
       " '套餐互转',\n",
       " '套餐注销',\n",
       " '融合',\n",
       " '补卡',\n",
       " '叠加包订购',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '过户',\n",
       " '天翼看家',\n",
       " '叠加包订购',\n",
       " '智家产品',\n",
       " '套餐互转',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '融合',\n",
       " '套餐互转',\n",
       " '套餐注销',\n",
       " '移机',\n",
       " '套餐互转',\n",
       " '全屋wifi加装',\n",
       " '天翼看家',\n",
       " '单卡',\n",
       " '叠加包订购',\n",
       " '补卡',\n",
       " '叠加包订购',\n",
       " '融合',\n",
       " '天翼看家新装',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '单卡',\n",
       " '单卡',\n",
       " '融合',\n",
       " '融合',\n",
       " '补卡',\n",
       " '全屋wifi加装',\n",
       " '天翼看家新装',\n",
       " '单卡',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '叠加包订购',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '智家产品',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '融合',\n",
       " '融合',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '套餐注销',\n",
       " '全屋wifi月租包',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '叠加包订购',\n",
       " '叠加包订购',\n",
       " '天翼看家',\n",
       " '套餐互转',\n",
       " '套餐互转',\n",
       " '天翼看家',\n",
       " '智家产品',\n",
       " '补卡',\n",
       " '叠加包订购',\n",
       " '融合',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '智家产品',\n",
       " '融合',\n",
       " '套餐互转',\n",
       " '叠加包订购',\n",
       " '叠加包订购',\n",
       " '补卡',\n",
       " '移机',\n",
       " '单卡',\n",
       " '补卡',\n",
       " '全屋wifi月租包',\n",
       " '多笔业务',\n",
       " '叠加包订购',\n",
       " '多类型业务',\n",
       " '智家产品',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '天翼看家',\n",
       " '叠加包订购',\n",
       " '叠加包订购',\n",
       " '天翼看家',\n",
       " '天翼看家新装',\n",
       " '多类型业务',\n",
       " '补卡',\n",
       " '套餐注销',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '补卡',\n",
       " '天翼看家新装',\n",
       " '天翼看家新装',\n",
       " '单宽带',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '套餐互转',\n",
       " '单卡',\n",
       " '过户',\n",
       " '多笔业务',\n",
       " '全屋wifi加装',\n",
       " '套餐注销',\n",
       " '全屋wifi加装',\n",
       " '天翼看家',\n",
       " '智家产品',\n",
       " '单卡',\n",
       " '全屋wifi月租包',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '天翼看家',\n",
       " '融合',\n",
       " '叠加包订购',\n",
       " '单卡',\n",
       " '融合',\n",
       " '叠加包订购',\n",
       " '融合',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '移机',\n",
       " '单卡',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '智家产品',\n",
       " '套餐互转',\n",
       " '单卡',\n",
       " '叠加包订购',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '过户',\n",
       " '单宽带',\n",
       " '单卡',\n",
       " '单卡',\n",
       " '天翼看家新装',\n",
       " '叠加包订购',\n",
       " '天翼看家',\n",
       " '套餐互转',\n",
       " '天翼看家新装',\n",
       " '融合',\n",
       " '智家产品',\n",
       " '过户',\n",
       " '单卡',\n",
       " '移机',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '天翼看家',\n",
       " '融合',\n",
       " '融合',\n",
       " '单卡',\n",
       " '叠加包订购',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '融合',\n",
       " '单卡',\n",
       " '全屋wifi月租包',\n",
       " '天翼看家',\n",
       " '套餐互转',\n",
       " '天翼看家',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '天翼看家新装',\n",
       " '补卡',\n",
       " '融合',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '套餐互转',\n",
       " '天翼看家',\n",
       " '多类型业务',\n",
       " '单卡',\n",
       " '套餐注销',\n",
       " '天翼看家',\n",
       " '天翼看家',\n",
       " '单卡',\n",
       " '全屋wifi加装',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '改套餐明细',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '全屋wifi加装',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '天翼看家新装',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '叠加包订购',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '融合',\n",
       " '融合',\n",
       " '单卡',\n",
       " '天翼看家',\n",
       " '改套餐明细',\n",
       " '单卡',\n",
       " '叠加包订购',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '套餐互转',\n",
       " '全屋wifi加装',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '智家产品',\n",
       " '补卡',\n",
       " '套餐注销',\n",
       " '全屋wifi月租包',\n",
       " '全屋wifi月租包',\n",
       " '融合',\n",
       " '叠加包订购',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '融合',\n",
       " '补卡',\n",
       " '改套餐明细',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '全屋wifi加装',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '叠加包订购',\n",
       " '单卡',\n",
       " '天翼看家',\n",
       " '天翼看家',\n",
       " '多类型业务',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '补卡',\n",
       " '智家产品',\n",
       " '全屋wifi月租包',\n",
       " '叠加包订购',\n",
       " '改套餐明细',\n",
       " '套餐注销',\n",
       " '套餐注销',\n",
       " '套餐互转',\n",
       " '多类型业务',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '叠加包订购',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '过户',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '套餐注销',\n",
       " '移机',\n",
       " '套餐注销',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '融合',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '融合',\n",
       " '多笔业务',\n",
       " '套餐注销',\n",
       " '智家产品',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '套餐注销',\n",
       " '天翼看家',\n",
       " '叠加包订购',\n",
       " '过户',\n",
       " '叠加包订购',\n",
       " '套餐互转',\n",
       " '全屋wifi加装',\n",
       " '天翼看家',\n",
       " '天翼看家',\n",
       " '融合',\n",
       " '套餐互转',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '套餐注销',\n",
       " '单卡',\n",
       " '多类型业务',\n",
       " '单卡',\n",
       " '套餐互转',\n",
       " '融合',\n",
       " '补卡',\n",
       " '改套餐明细',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '过户',\n",
       " '叠加包订购',\n",
       " '天翼看家新装',\n",
       " '融合',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '融合',\n",
       " '融合',\n",
       " '单卡',\n",
       " '套餐互转',\n",
       " '融合',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '全屋wifi加装',\n",
       " '套餐互转',\n",
       " '智家产品',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '单卡',\n",
       " '移机',\n",
       " '补卡',\n",
       " '融合',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '智家产品',\n",
       " '多类型业务',\n",
       " '天翼看家',\n",
       " '过户',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '多类型业务',\n",
       " '套餐互转',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '多类型业务',\n",
       " '套餐互转',\n",
       " '叠加包订购',\n",
       " '天翼看家新装',\n",
       " '融合',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '多类型业务',\n",
       " '全屋wifi月租包',\n",
       " '单卡',\n",
       " '套餐互转',\n",
       " '过户',\n",
       " '天翼看家',\n",
       " '天翼看家',\n",
       " '套餐互转',\n",
       " '套餐互转',\n",
       " '叠加包订购',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '套餐互转',\n",
       " '智家产品',\n",
       " '套餐互转',\n",
       " '融合',\n",
       " '补卡',\n",
       " '叠加包订购',\n",
       " '天翼看家',\n",
       " '单卡',\n",
       " '补卡',\n",
       " '全屋wifi月租包',\n",
       " '多笔业务',\n",
       " '补卡',\n",
       " '套餐注销',\n",
       " '套餐互转',\n",
       " '融合',\n",
       " '单卡',\n",
       " '单卡',\n",
       " '天翼看家',\n",
       " '套餐互转',\n",
       " '天翼看家',\n",
       " '叠加包订购',\n",
       " '叠加包订购',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '融合',\n",
       " '融合',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '套餐注销',\n",
       " '套餐互转',\n",
       " '叠加包订购',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '多类型业务',\n",
       " '融合',\n",
       " '单卡',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '叠加包订购',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '融合',\n",
       " '智家产品',\n",
       " '套餐注销',\n",
       " '套餐互转',\n",
       " '单卡',\n",
       " '叠加包订购',\n",
       " '套餐互转',\n",
       " '套餐注销',\n",
       " '套餐互转',\n",
       " '天翼看家',\n",
       " '单卡',\n",
       " '单卡',\n",
       " '套餐注销',\n",
       " '智家产品',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '天翼看家',\n",
       " '全屋wifi加装',\n",
       " '补卡',\n",
       " '智家产品',\n",
       " '融合',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '叠加包订购',\n",
       " '套餐注销',\n",
       " '叠加包订购',\n",
       " '全屋wifi月租包',\n",
       " '补卡',\n",
       " '叠加包订购',\n",
       " '补卡',\n",
       " '融合',\n",
       " '套餐互转',\n",
       " '单卡',\n",
       " '天翼看家',\n",
       " '叠加包订购',\n",
       " '天翼看家新装',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '多笔业务',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '融合',\n",
       " '融合',\n",
       " '天翼看家新装',\n",
       " '套餐互转',\n",
       " '天翼看家',\n",
       " '单卡',\n",
       " '补卡',\n",
       " '单卡',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '叠加包订购',\n",
       " '叠加包订购',\n",
       " '单卡',\n",
       " '补卡',\n",
       " '套餐注销',\n",
       " '天翼看家',\n",
       " '天翼看家新装',\n",
       " '补卡',\n",
       " '多类型业务',\n",
       " '补卡',\n",
       " '叠加包订购',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '过户',\n",
       " '移机',\n",
       " '移机',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '叠加包订购',\n",
       " '补卡',\n",
       " '天翼看家新装',\n",
       " '天翼看家新装',\n",
       " '套餐互转',\n",
       " '移机',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '叠加包订购',\n",
       " '套餐注销',\n",
       " '多类型业务',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '智家产品',\n",
       " '融合',\n",
       " '天翼看家',\n",
       " '全屋wifi加装',\n",
       " '补卡',\n",
       " '天翼看家新装',\n",
       " '套餐注销',\n",
       " '全屋wifi加装',\n",
       " '补卡',\n",
       " '补卡',\n",
       " '套餐注销',\n",
       " '叠加包订购',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '融合',\n",
       " '全屋wifi月租包',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '融合',\n",
       " '天翼看家',\n",
       " '套餐注销',\n",
       " '补卡',\n",
       " '多类型业务',\n",
       " '叠加包订购',\n",
       " '套餐互转',\n",
       " '天翼看家',\n",
       " '叠加包订购',\n",
       " '补卡',\n",
       " '套餐互转',\n",
       " '补卡',\n",
       " '天翼看家',\n",
       " '改套餐明细',\n",
       " '融合',\n",
       " '套餐互转',\n",
       " ...]"
      ]
     },
     "execution_count": 27,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "alabels"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 28,
   "id": "f6ec4840",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "0.1352988953866147"
      ]
     },
     "execution_count": 28,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "accuracy=[1 if i==j else 0 for i in alabels for j in dflabels]\n",
    "sum(accuracy)/len(accuracy)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "1039f72a",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "markdown",
   "id": "7959887d",
   "metadata": {
    "pycharm": {
     "name": "#%% md\n"
    }
   },
   "source": [
    "代码整理，构建可用于来发环境"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 29,
   "id": "ef05b9a7",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "13369    老 用户 < num > 加装 摄像头 加 < num > 元 智慧 家庭 升级包 < nu...\n",
       "10707    < num > 套餐 互转 < num > G 融合 < num > 十 < num > M...\n",
       "12388    pstylepaddingleft < num > pxoverflowhiddenspan...\n",
       "12010    办理 < num > G < num > 元 融合 套餐 加 < num > 元 联合 促销...\n",
       "12148                                     < num > 二路 宽带 销户\n",
       "                               ...                        \n",
       "4263      < num > G 畅享 < num > 套餐 加 < num > 元 < num > G 流量\n",
       "13756    < num > 元 融合 套餐 宽带 加 电视 做 低 渗 < num > 元 促销 < n...\n",
       "12809    新装 < num > G < num > 融合 套餐 < num > G 流量 包 < nu...\n",
       "7893                 补卡 < num > 卡串 < num > 受理 人 电话 < num >\n",
       "5968                        < num > 套餐 下 加装 摄像头 串码 < num >\n",
       "Name: words, Length: 2280, dtype: object"
      ]
     },
     "execution_count": 29,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "test[COMMENT]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 30,
   "id": "45d27380",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "array([[0., 0., 0., ..., 0., 0., 0.],\n",
       "       [0., 0., 0., ..., 0., 0., 0.],\n",
       "       [0., 0., 0., ..., 0., 0., 0.],\n",
       "       ...,\n",
       "       [0., 0., 0., ..., 0., 0., 0.],\n",
       "       [0., 0., 0., ..., 0., 0., 0.],\n",
       "       [0., 0., 0., ..., 0., 0., 0.]])"
      ]
     },
     "execution_count": 30,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "test_term_doc = vec.transform(test[COMMENT])\n",
    "test_term_doc.toarray()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 31,
   "id": "962dfb3c",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,\n",
       "        0., 0., 0., 0.]])"
      ]
     },
     "execution_count": 31,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "test1 = vec.transform(['17389163891套餐互转为5g99融合套餐加副卡一张加0元返30元优惠促销加集采版全屋'])\n",
    "test1.toarray()"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 32,
   "id": "a625b5a1",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['补卡']"
      ]
     },
     "execution_count": 32,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "test1 = vec.transform(['17389163891套餐互转为5g99融合套餐加副卡一张加0元返30元优惠促销加集采版全屋'])\n",
    "preds = np.zeros((test1.shape[0], len(label_cols)))\n",
    "\n",
    "for i, j in enumerate(label_cols):\n",
    "    #print('fit', j)\n",
    "    m, r = get_mdl(train[j])\n",
    "    preds[:, i] = m.predict_proba(test1.multiply(r))[:, 1]\n",
    "    \n",
    "df=pandas.DataFrame(preds)\n",
    "df.columns=label_cols\n",
    "dflabels=df.idxmax(axis=1).values.tolist()\n",
    "dflabels"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 33,
   "id": "e871c469",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>words</th>\n",
       "      <th>未标记</th>\n",
       "      <th>全屋wifi加装</th>\n",
       "      <th>全屋wifi月租包</th>\n",
       "      <th>套餐互转</th>\n",
       "      <th>智家产品</th>\n",
       "      <th>天翼看家新装</th>\n",
       "      <th>单宽带</th>\n",
       "      <th>套餐注销</th>\n",
       "      <th>叠加包订购</th>\n",
       "      <th>...</th>\n",
       "      <th>改套餐明细</th>\n",
       "      <th>天翼看家</th>\n",
       "      <th>过户</th>\n",
       "      <th>套餐停机</th>\n",
       "      <th>融合</th>\n",
       "      <th>单卡</th>\n",
       "      <th>补卡</th>\n",
       "      <th>多类型业务</th>\n",
       "      <th>多笔业务</th>\n",
       "      <th>智家产品新装</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>6591</th>\n",
       "      <td>客户 办理 &lt; num &gt; G &lt; num &gt; 元单 卡卡 串 &lt; num &gt; 业务员 &lt; ...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>10807</th>\n",
       "      <td>名下 融合 套餐 加卡 &lt; num &gt;</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8908</th>\n",
       "      <td>&lt; num &gt; 补卡 &lt; num &gt;</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>11177</th>\n",
       "      <td>&lt; num &gt; 天翼 看家 受理 乡镇 版 &lt; num &gt;</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>14178</th>\n",
       "      <td>手机号 &lt; num &gt; 加天翼 看家 迁转 &lt; num &gt; 元 融合 宽带 做 低 渗 &lt; ...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7862</th>\n",
       "      <td>备注 &lt; num &gt; 点半 以后 做 套餐 内容 给 &lt; num &gt; 加 副卡 号码 &lt; n...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>...</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "<p>6 rows × 21 columns</p>\n",
       "</div>"
      ],
      "text/plain": [
       "                                                   words  未标记  全屋wifi加装  \\\n",
       "6591   客户 办理 < num > G < num > 元单 卡卡 串 < num > 业务员 < ...    0         0   \n",
       "10807                                名下 融合 套餐 加卡 < num >    0         0   \n",
       "8908                                  < num > 补卡 < num >    0         0   \n",
       "11177                      < num > 天翼 看家 受理 乡镇 版 < num >    0         0   \n",
       "14178  手机号 < num > 加天翼 看家 迁转 < num > 元 融合 宽带 做 低 渗 < ...    0         0   \n",
       "7862   备注 < num > 点半 以后 做 套餐 内容 给 < num > 加 副卡 号码 < n...    0         0   \n",
       "\n",
       "       全屋wifi月租包  套餐互转  智家产品  天翼看家新装  单宽带  套餐注销  叠加包订购  ...  改套餐明细  天翼看家  过户  \\\n",
       "6591           0     0     0       0    0     0      0  ...      0     0   0   \n",
       "10807          0     0     0       0    0     0      0  ...      1     0   0   \n",
       "8908           0     0     0       0    0     0      0  ...      0     0   0   \n",
       "11177          0     0     0       1    0     0      0  ...      0     0   0   \n",
       "14178          0     1     0       0    0     0      0  ...      0     0   0   \n",
       "7862           0     1     0       0    0     0      0  ...      0     0   0   \n",
       "\n",
       "       套餐停机  融合  单卡  补卡  多类型业务  多笔业务  智家产品新装  \n",
       "6591      0   0   1   0      0     0       0  \n",
       "10807     0   0   0   0      0     0       0  \n",
       "8908      0   0   0   1      0     0       0  \n",
       "11177     0   0   0   0      0     0       0  \n",
       "14178     0   0   0   0      0     0       0  \n",
       "7862      0   0   0   0      0     0       0  \n",
       "\n",
       "[6 rows x 21 columns]"
      ]
     },
     "execution_count": 33,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "test.sample(6)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 34,
   "id": "5b9dc781",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": [
    "v1=test.loc[3938]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 35,
   "id": "5f6bb590",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "'补卡 < num > 揽装 < num >'"
      ]
     },
     "execution_count": 35,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "v1['words']"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 36,
   "id": "d3da8817",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['补卡']"
      ]
     },
     "execution_count": 36,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "test1 = vec.transform([v1['words']])\n",
    "preds = np.zeros((test1.shape[0], len(label_cols)))\n",
    "\n",
    "for i, j in enumerate(label_cols):\n",
    "    #print('fit', j)\n",
    "    m, r = get_mdl(train[j])\n",
    "    preds[:, i] = m.predict_proba(test1.multiply(r))[:, 1]\n",
    "    \n",
    "df=pandas.DataFrame(preds)\n",
    "df.columns=label_cols\n",
    "dflabels=df.idxmax(axis=1).values.tolist()\n",
    "dflabels"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "4f2c4ed7",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": []
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "id": "31a78446",
   "metadata": {
    "pycharm": {
     "name": "#%%\n"
    }
   },
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3 (ipykernel)",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.10.4"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 5
}